Come il cervello dei primati riconosce le immagini

 

 

DIANE RICHMOND & ROBERTO COLONNA

 

 

NOTE E NOTIZIE - Anno XX – 11 marzo 2023.

Testi pubblicati sul sito www.brainmindlife.org della Società Nazionale di Neuroscienze “Brain, Mind & Life - Italia” (BM&L-Italia). Oltre a notizie o commenti relativi a fatti ed eventi rilevanti per la Società, la sezione “note e notizie” presenta settimanalmente lavori neuroscientifici selezionati fra quelli pubblicati o in corso di pubblicazione sulle maggiori riviste e il cui argomento è oggetto di studio dei soci componenti lo staff dei recensori della Commissione Scientifica della Società.

 

 

[Tipologia del testo: RECENSIONE]

 

La straordinaria capacità del cervello nostro e delle scimmie di riconoscere scene naturali, contesti complessi di oggetti vari per colori e forme, figure nelle più varie condizioni di luce e di presentazione continua a costituire un problema per la neurofisiologia dell’elaborazione visiva di alto livello, quella che implica l’intervento di processi cognitivi.

Se si mostra a un bambino una fotografia scattata in una foresta tropicale nella quale si intravvedono nel pittoresco intreccio di tronchi, rami, piante e liane, i profili di vari animali, e poi gli si mostra un’altra foto scattata poco dopo nello stesso posto, identica in tutto tranne un particolare – manca ad esempio uno degli animali – il bambino rileva la differenza e non considera uguali le due immagini. Se poi si mostrano allo stesso bambino cento fotografie scattate nella stessa ora del giorno in angoli della foresta simili a quello della prima foto e si chiede al bambino di trovare fra quelle l’immagine che aveva visto per prima, il bambino dirà correttamente che molte assomigliano, ma nessuna è quella che ha visto per prima. Se fra quelle cento foto se ne include una scattata nel punto esatto della prima, ma quasi a sera con colori completamente diversi e senza gli animali, il bambino la identificherà e dirà che il luogo è quello della prima foto in una diversa ora del giorno.

La ricerca degli ultimi decenni ha reso sempre più evidente l’inadeguatezza delle spiegazioni basate sulle proprietà analitiche classiche[1] dei neuroni della corteccia visiva per rendere conto dell’abilità di sintesi di quantità impressionanti di informazioni provenienti da un’immagine e dell’istantaneo confronto con quelle provenienti da un’altra per decidere se sono uguali o diverse, spesso in una frazione di secondo.

Le immagini che si formano nella retina sono pattern dinamici complessi e vari per intensità di luce e colore. L’elaborazione visiva di basso livello è responsabile del rilievo di vari tipi di contrasto in queste immagini, mentre l’elaborazione di livello intermedio è implicata nella definizione di elementi fondamentali quali contorni, campi di movimento e superfici; l’elaborazione di alto livello integra informazioni provenienti da varie fonti cerebrali, quale stadio finale della via visiva, e realizza la base funzionale dell’esperienza visiva cosciente.

In pratica, si è accertato che l’elaborazione di alto livello dipende da segnali top-down che permeano le emergenti rappresentazioni sensoriali bottom-up di significato, quale quello che risiede nelle memorie a lungo termine, a breve termine e connesse con l’ideazione. Thomas D. Albright dieci anni fa sintetizzava così: “L’elaborazione visiva di alto livello seleziona attributi significativi in termini comportamentali dell’ambiente visivo”[2]. Noi, oggi, possiamo aggiornare così il concetto: l’elaborazione visiva di alto livello integra la rappresentazione sensoriale con tutti i valori psichici di senso e significato associabili in base alle memorie della specie e all’apprendimento individuale.

La ricerca in questo campo ha fatto importanti progressi grazie alle osservazioni su primati non umani e, proseguendo nel solco di questa esperienza, Carlos Ponce, Katherine N. Mueller e colleghi hanno studiato nei macachi la loro nota capacità di comprendere immediatamente le immagini che vedono, prendendo le mosse dalla definizione dell’informazione visiva codificata dai neuroni. A questo scopo hanno impiegato il machine learning per creare immagini sintetiche che attivano fortemente le cellule nervose della corteccia, formando esempi delle loro rappresentazioni. I ricercatori hanno denominato queste immagini prototipi.

È possibile interpretare i prototipi usando le reti neurali e i report umani, ma come percepiscono realmente queste immagini le scimmie? Una risposta si trova nello studio qui recensito.

(Mueller K. N. et al., Macaque recognize features in synthetic images derived from ventral stream neurons. Proceedings of the National Academy of Sciences USA – Epub ahead of print doi: 10.1073/pnas.2213034120, 2023).

La provenienza degli autori è la seguente: Department of Neurobiology, Harvard Medical School, Boston, MA (USA); Department of Neuroscience, Washington University School of Medicine, St. Louis, MO (USA).

L’elaborazione visiva di alto livello è stata studiata soprattutto in relazione all’abilità di identificazione degli oggetti. È noto da tempo che, nei primati, la corteccia temporale inferiore è la sede primaria della percezione degli oggetti. Il sistema visivo corticale, che nel complesso include 32 aree, si estende dall’area visiva primaria della corteccia occipitale (V1 o area 17 di Brodmann) al lobo temporale, dove convergono molti tipi di informazione visiva diversa.

I primi indizi sulla via visiva che media il riconoscimento degli oggetti risalgono alla fine del XIX secolo, quando il neurologo americano Sanger Brown e il fisiologo britannico Edward Albert Schafer scoprirono che le lesioni del lobo temporale nei primati causavano la perdita del riconoscimento degli oggetti. Un sintomo rilevato anche in clinica neurologica e distinto dalla condizione di lesione occipitale in cui si perde la capacità di percepire gli attributi visivi elementari come colore, movimento e distanza: nella lesione temporale i pazienti vedevano bene, ma non riconoscevano più gli oggetti. I neurologi inizialmente chiamarono questa condizione “cecità psichica”, ma la definizione parve a molti impropria, in quanto la visione è conservata. Pochi sanno che la definizione ancora in uso di agnosia visiva fu introdotta da Sigmund Freud.

I neuroni della corteccia temporale inferiore codificano stimoli visivi complessi e sono organizzati in colonne, che costituiscono parte di una rete per il riconoscimento degli oggetti. L’identificazione degli oggetti si basa sulla costanza percettiva e una costanza ancora più generale è rappresentata dall’individuazione di singoli oggetti come appartenenti alla stessa categoria semantica. L’elaborazione visiva di alto livello che consente di riconoscere gli oggetti ha nella memoria visiva un costituente essenziale e imprescindibile.

La questione chiave che si affronta nello studio del processo che consente di identificare ciò che si vede fu chiaramente evidenziata dal celebre neuropsicologo Hans-Lukas Teuber che, commentando l’agnosia visiva di pazienti che non riconoscevano più oggetti comuni, disse: “È come se una normale percezione fosse privata del suo significato”. E proprio questa è la difficoltà per i neurofisiologi della visione: occuparsi della formazione del significato nel cervello.

Senza avventurarci in una definizione scientificamente soddisfacente di “significato”, consideriamo la connotazione operativa del concetto più impiegata in questo tipo di ricerca: per significato si intende l’oggetto corrispondente all’immagine vista, memorizzato nell’uomo col nome attribuito dalla propria lingua madre, e nella scimmia reso evidente dal riconoscimento per appaiamento.

Uno degli aspetti più sorprendenti del riconoscimento degli oggetti, se lo esaminiamo in un’ottica neurofisiologica, è costituito dal fatto che, a dispetto delle migliaia di immagini retiniche diverse che si formano per ciascuna cosa che vediamo, abbiamo la capacità di riconoscere un oggetto come lo stesso. Basti pensare che il variare della distanza, dell’angolo visivo, delle caratteristiche e dell’intensità dell’illuminazione, dà luogo a immagini sempre diverse e, sia detto per inciso, ne occorre un numero enormemente elevato nella memoria di un dispositivo di intelligenza artificiale (IA) se vogliamo che abbia delle prestazioni simili alle nostre per riconoscere una palla, un libro, un vaso, una bottiglia. Ma ciò che ci sorprende è l’abilità che abbiamo reso evidente nell’esempio iniziale del bambino che, fra cento immagini simili di uno scorcio di foresta tropicale, riesce a trovare l’unica dello stesso luogo anche se ha caratteristiche di chiaroscuro e colore del tutto diverse perché l’immagine è stata ripresa quasi a sera. Come è possibile?

È possibile perché uno stesso neurone, e sempre quello, nella corteccia temporale inferiore è attivato da varie immagini retiniche dello stesso oggetto e mai da immagini che assomigliano per forma, colore, chiaroscuro e dimensione. A questa risposta venuta dalla ricerca non può non seguire la domanda: “Come fa quel neurone a riconoscere l’identità dell’oggetto al di là dell’apparenza?”

La ricerca non ha dato ancora una risposta esauriente a questa domanda, ma i ricercatori notano che nella corteccia prefrontale vi sono neuroni che si attivano sempre reagendo ad oggetti materialmente diversi fra loro ma appartenenti alla stessa classe concettuale, in quanto semanticamente correlati.

“Significato” in questi studi connota anche funzione, utilità o intenzione. Nel caso del riconoscimento visivo il significato è formato dalle precedenti esperienze sensoriali dell’osservatore e dalle associazioni fra queste esperienze. Questi attributi sono fondamentali nell’elaborazione di alto livello e includono un’accresciuta selettività percettiva e neuronica per gli oggetti familiari così come legami associativi fra le rappresentazioni neuroniche degli oggetti. Molte indagini sono state svolte in questo campo e oggi si sa molto dei correlati neuronici del riconoscimento dell’oggetto, ma si sa ancora poco circa i circuiti e le reti responsabili di queste rappresentazioni neuroniche.

Tanto premesso, si comprende come lo studio qui recensito appartenga a quel tipo di lavoro sperimentale che sta cercando di colmare il gap, lo iato, il salto che esiste tra le nozioni neurofisiologiche relative a singoli neuroni o gruppi neuronici e il sostrato che consente le sorprendenti sintesi di riconoscimento al semplice sguardo di scene e immagini complesse da parte delle scimmie così come dell’uomo.

Carlos Ponce, Katherine N. Mueller e colleghi hanno approcciato il problema rilevando che l’abilità dei primati di riconoscere elementi virtualmente in ogni tipo di immagine richiede una spiegazione computazionale soddisfacente. Un’ipotesi avanzata da tempo prevede che i neuroni della corteccia visiva apprendano pattern da scene, oggetti e strutture delle configurazioni, e poi utilizzino questi pattern come schema per rappresentare l’informazione visiva che entra attraverso la vista. Rifacendosi a questa ipotesi, gli autori dello studio hanno impiegato algoritmi di machine learning per simulare i pattern visivi immagazzinati nell’attività neuronica, realizzando immagini “altamente attivanti”, cui hanno dato il nome di prototipi.

Già realizzati in precedenza, tali prototipi provenienti dai neuroni infero-temporali (IT) spesso rappresentano elementi e parti del mondo reale, come volti di scimmie e parti del corpo, in una similarità stabilita via pretrained neural networks, cioè reti neurali pre-addestrate[3] e partecipanti umani naïve[4]. Ma finora non si era compreso se le scimmie stesse percepissero la similarità tra i prototipi neuronici e gli elementi del mondo reale. I ricercatori hanno allora indagato per accertare se le scimmie rilevavano la somiglianza tra i prototipi e il mondo reale, usando un compito sperimentale classico, molto efficace: two-alternative forced choice task, cioè il “compito della scelta forzata tra due alternative”.

Ponce, Mueller e colleghi hanno addestrato i macachi partecipanti allo studio alla saccade per immagini sintetiche di scimmie, e successivamente hanno valutato come i primati classificavano i prototipi sintetizzati dai neuroni IT e dalla corteccia visiva primaria (V1, area 17). È risultato che i macachi classificavano i prototipi IT come propri co-specifici più spesso di quanto facevano con i prototipi di V1 e con le immagini del generatore random, e le loro scelte erano, in parte, previste dalle reti neurali convoluzionali (convolutional neural networks). I risultati, per il cui dettaglio si rimanda al resoconto tecnico del lavoro originale, hanno consentito agli autori di confermare che primati come i macachi partecipanti allo studio sono in grado di astrarre informazioni generali sulla forma da immagini di oggetti del mondo reale.

Infine, i ricercatori hanno eseguito la parte per molti versi più interessante dello studio: hanno sottoposto i risultati ottenuti con i macachi alla verifica di partecipanti umani alla sperimentazione, ottenendo piena conferma.

Quanto emerso dallo studio di Ponce, Mueller e colleghi fornisce ulteriori evidenze a supporto della tesi sostenuta in precedenza dagli stessi autori, ossia che i prototipi provenienti dai neuroni corticali rappresentano astrazioni interpretabili del mondo visivo.

 

Gli autori della nota ringraziano la dottoressa Isabella Floriani per la correzione della bozza e invitano alla lettura delle recensioni di argomento connesso che appaiono nella sezione “NOTE E NOTIZIE” del sito (utilizzare il motore interno nella pagina “CERCA”).

 

Diane Richmond & Roberto Colonna

BM&L-11 marzo 2023

www.brainmindlife.org

 

 

 

________________________________________________________________________________

 

La Società Nazionale di Neuroscienze BM&L-Italia, affiliata alla International Society of Neuroscience, è registrata presso l’Agenzia delle Entrate di Firenze, Ufficio Firenze 1, in data 16 gennaio 2003 con codice fiscale 94098840484, come organizzazione scientifica e culturale non-profit.

 

 

 



[1] Si intendono le proprietà scoperte da Hubel e Wiesel e dalla ricerca dei due decenni successivi.

[2] Kandel, Schwartz, Jessell, Siegelbaum, Hudspeth (eds), Principles of Neural Sciences, p. 621 (trad. nostra), McGraw Hill Medical, New York 2013.

[3] Ponce C. R. et al. Cell 177, 999-1009.e10, 2019.

[4] Bardon A., Xiao W., Ponce C. R., Livingstone M. S., Kreiman G., PNAS USA 119, e2118705119, 2022.